Agile Humanoid Motion Planning (AHMP, 민첩한 휴머노이드 모션 플래닝)

2024-11-99, G25DR

1. 서론: 정적 보행을 넘어 동적 민첩성으로

민첩한 휴머노이드 모션 플래닝(Agile Humanoid Motion Planning, AHMP)은 단순히 로봇이 출발점에서 목표점까지 충돌 없이 이동하는 경로를 찾는 전통적인 모션 플래닝의 개념을 뛰어넘는 고차원적 기술이다. AHMP는 로봇의 복잡한 전신 동역학(whole-body dynamics), 동적 균형(dynamic balance), 그리고 예측 불가능한 환경과의 물리적 상호작용을 통합적으로 고려하여, 인간과 같이 민첩하고(agile), 강인하며(robust), 효율적인 움직임을 생성하는 것을 목표로 한다.1 이 기술의 중요성은 휴머노이드 로봇이 고도로 통제된 실험실 환경을 벗어나, 계단, 울퉁불퉁한 지면, 좁은 통로, 움직이는 장애물로 가득 찬 인간 중심의 비정형적(unstructured) 환경에서 실질적인 임무를 수행하기 위한 핵심 전제 조건이라는 점에서 비롯된다.4 로봇이 단순히 걷는 것을 넘어, 주변 환경을 밀고, 딛고, 잡고, 넘어서는 등 능동적으로 상호작용하기 위해서는 AHMP가 필수적이다.

휴머노이드 로봇 연구의 역사는 안정성 제약에 대한 패러다임의 전환 과정으로 요약될 수 있다. 초기 연구는 Zero Moment Point (ZMP)라는 안정성 지표를 발바닥이 지면에 닿아 형성하는 지지 다각형(support polygon) 내에 항상 유지하는 데 집중했다.4 이는 로봇이 넘어지지 않는다는 강력한 안정성을 보장하며 정적인 보행을 성공적으로 구현했지만, ’항상 안정 영역 내에 있어야 한다’는 이 엄격하고 보수적인 제약은 로봇의 움직임을 인위적으로 제한하여 달리기, 점프, 급격한 방향 전환과 같은 역동적인 움직임을 구현하는 데 근본적인 한계로 작용했다.8

이러한 한계를 극복하기 위한 노력은 안정성 제약을 점진적으로 완화하고 일반화하는 방향으로 전개되었다. Kajita 등이 제안한 ZMP ’Preview Control’은 미래의 ZMP 궤적을 예측하여 현재의 질량 중심(Center of Mass, CoM)을 제어함으로써, 제약을 현재 시점에서 시간 축으로 확장하는 첫걸음을 내디뎠다.11 이후 등장한 발산 운동 성분(Divergent Component of Motion, DCM) 또는 Capture Point 개념은 시스템의 불안정한 모드를 명시적으로 모델링하여, ’넘어지지 않는 상태’를 유지하는 대신 ’넘어지는 과정 자체를 제어’하는 새로운 패러다임으로의 전환을 이끌었다.13 이는 ’안정’이라는 경직된 제약을 ’제어 가능한 불안정성’이라는 유연한 개념으로 완화한 것이다. 현대 AHMP의 정점에 있는 모델 예측 제어(Model Predictive Control, MPC)는 여기서 한 걸음 더 나아가, ZMP와 같은 단일 지표에 얽매이지 않고 미래의 특정 시간 동안 로봇의 전체 동역학 모델과 운동학, 토크, 접촉 등 모든 물리적 제약을 만족하는 최적의 제어 입력을 실시간으로 탐색한다.4 이로써 안정성 제약은 ’동역학적 실현 가능성(dynamic feasibility)’이라는 가장 일반적이고 유연한 형태로 확장되었다. 이처럼 AHMP 기술의 발전사는 경직된 제약에서 벗어나 예측과 최적화를 통해 로봇에게 더 넓은 행동 공간과 높은 민첩성을 부여해 온 과정으로 해석할 수 있다.

본 보고서는 이러한 AHMP의 핵심 기술들을 체계적으로 분석하고 통합적인 시각을 제공하는 것을 목표로 한다. 제1부에서는 휴머노이드 균형 제어의 기초가 되는 ZMP와 DCM의 개념과 한계를 심층적으로 다룬다. 제2부에서는 궤적 최적화(Trajectory Optimization), 모델 예측 제어(MPC), 전신 제어(Whole-Body Control, WBC) 등 민첩한 전신 운동을 생성하기 위한 최첨단 플래닝 및 제어 기법들을 수학적 원리와 함께 상세히 분석한다. 제3부에서는 비정형 환경과의 능동적 상호작용을 위한 핵심 기술인 접촉 순서 계획(Contact Sequence Planning)과 인식 기반 동적 계획을 탐구한다. 제4부에서는 Boston Dynamics의 Atlas 로봇 사례 연구와 학습 기반 접근법을 통해 AHMP 기술의 통합적 측면과 미래 방향성을 조망한다. 마지막으로, 현재 기술의 미해결 과제를 제시하고 미래 연구 방향을 논하며 보고서를 마무리한다.

2. 휴머노이드 동역학 및 균형 제어의 기초

휴머노이드 로봇이 두 발로 서고 걷는 능력의 핵심은 균형을 유지하는 것이다. 이 균형을 정량화하고 제어하기 위한 이론적 토대는 수십 년에 걸쳐 발전해왔으며, 이는 정역학적 관점에서 동역학적 관점으로의 심화 과정으로 볼 수 있다. 본 부에서는 그 초석이 된 Zero Moment Point (ZMP)와 동적 안정성 제어의 새로운 지평을 연 Divergent Component of Motion (DCM)의 기본 원리와 그 의미를 탐구한다.

2.1 정역학적 안정성의 초석: Zero Moment Point (ZMP)

2.1.1 ZMP의 정의와 물리적 의미

Zero Moment Point (ZMP)는 휴머노이드 로봇의 동적 안정성을 논하는 데 있어 가장 근본적인 개념 중 하나이다. ZMP는 지면과 로봇의 발바닥이 접촉하는 지점에서 발생하는 지면 반력(Ground Reaction Force, GRF)에 의한 모멘트의 수평 성분(즉, 전복 모멘트)이 0이 되는 지점으로 정의된다.7 물리적으로 이는 로봇에 작용하는 모든 관성력과 중력의 합력(resultant force)이 지면과 만나는 점으로 해석할 수 있다.18 로봇이 넘어지지 않고 동적으로 안정적인 상태를 유지하기 위한 필요충분조건은 이 ZMP가 항상 발바닥이 지면에 닿아 형성하는 지지 다각형(support polygon) 내부에 존재하는 것이다.9 만약 ZMP가 지지 다각형의 경계를 벗어나면, 발바닥의 일부가 들리거나 전체가 전복되는 방향으로 모멘트가 발생하여 로봇은 균형을 잃게 된다.

2.1.2 수학적 공식

ZMP의 위치 $(p_x, p_y)$ 는 로봇을 구성하는 모든 링크 $i$ 의 질량(mi), 질량 중심 위치( $x_i, y_i, z_i$ ), 가속도( $\ddot{x}_i, \ddot{y}_i, \ddot{z}_i$ ), 관성 모멘트(Iix,Iiy), 각가속도( $\ddot{\theta}_{ix}, \ddot{\theta}_{iy}$ )를 이용하여 다음과 같이 계산된다. 이 공식은 로봇의 모든 동역학적 요소가 ZMP 위치에 어떻게 기여하는지를 명확히 보여준다.7

$p_x = \frac{\sum_i m_i ( \ddot{z}_i + g ) x_i - \sum_i m_i \ddot{x}_i z_i - \sum_i I_{iy} \ddot{\theta}_{iy}}{\sum_i m_i (\ddot{z}_i + g)}$

$p_y = \frac{\sum_i m_i ( \ddot{z}_i + g ) y_i - \sum_i m_i \ddot{y}_i z_i + \sum_i I_{ix} \ddot{\theta}_{ix}}{\sum_i m_i (\ddot{z}_i + g)}$

2.1.3 선구적 연구와 발전

ZMP 개념은 1970년대 초, Miomir Vukobratović에 의해 처음으로 정립되었으며, 이는 휴머노이드의 동적 보행 제어 연구에 있어 하나의 전환점을 마련했다.20 이 개념을 바탕으로 로봇의 움직임을 미리 계획하여 ZMP 안정성 조건을 만족시키는 패턴 생성 방식이 주류를 이루게 되었다. 이후 2003년, Kajita 연구팀은 ZMP 개념을 선형 역진자 모델(Linear Inverted Pendulum Model, LIPM)과 결합하고, 미래의 참조 ZMP 궤적을 미리(preview) 참조하여 현재의 CoM 궤적을 최적으로 생성하는 ‘Preview Control’ 기법을 제안했다. 이 연구는 ZMP 기반 보행 패턴 생성 기술의 정확성과 실용성을 크게 향상시켰으며, 해당 분야에서 가장 중요한 선구적 논문(seminal paper) 중 하나로 평가받는다: “Biped walking pattern generation by using preview control of zero-moment point”.4

2.1.4 ZMP의 한계

ZMP는 휴머노이드 보행 안정화에 지대한 공헌을 했음에도 불구하고, 민첩한 움직임을 구현하는 데 있어 몇 가지 근본적인 한계를 가진다.

비행 구간(Flight Phase) 적용 불가: ZMP는 정의상 지면과의 접촉을 전제로 한다. 따라서 두 발이 모두 공중에 뜨는 달리기나 점프 동작의 비행 구간에서는 ZMP가 정의되지 않아, 이 기준을 직접적으로 안정성 제어에 사용할 수 없다.9
보수적이고 비효율적인 움직임: ZMP를 항상 지지 다각형 내부에 엄격하게 유지해야 한다는 제약 조건은 로봇의 가속 및 감속 능력을 제한한다. 이로 인해 생성되는 움직임은 인간의 역동적이고 에너지 효율적인 보행과는 거리가 먼, 다소 부자연스럽고 보수적인 형태를 띠게 된다.8
모델링 오차에 대한 민감성: ZMP 계산은 로봇의 정확한 동역학 모델을 요구한다. 하지만 단순화된 모델과 실제 로봇의 복잡한 동역학(예: 관절의 유연성, 백래시) 사이의 차이는 필연적으로 ZMP 오차를 유발하며, 이는 예기치 않은 불안정성을 초래할 수 있다.24

2.2 동역학적 안정성의 도약: 발산 운동 성분 (DCM)

ZMP의 한계를 극복하고 더 동적인 움직임을 구현하기 위해, 로봇의 동역학 자체를 더 깊이 이해하고 제어하려는 시도에서 발산 운동 성분(Divergent Component of Motion, DCM) 개념이 등장했다. ZMP가 안정성의 ’결과’에 초점을 맞춘 정역학적 지표라면, DCM은 안정성이 어떻게 붕괴되고 유지되는지의 ’과정’을 설명하는 동역학적 지표이다. 이러한 관점의 전환은 휴머노이드 균형 제어 패러다임을 ’결과론적 정역학’에서 ’과정 중심의 동역학’으로 심화시켰다. 이는 로봇이 단순히 안정 영역을 벗어나지 않으려는 소극적 자세에서 벗어나, 제어 가능한 불안정성을 적극적으로 활용하여 더 효율적이고 자연스러운 움직임을 생성할 수 있게 된 근본적인 변화를 의미한다.

2.2.1 선형 역진자 모델 (LIPM)

DCM을 이해하기 위해서는 먼저 선형 역진자 모델(LIPM)을 이해해야 한다. LIPM은 휴머노이드의 복잡한 동역학을 질량이 하나의 점(CoM)에 집중되어 있고, 이 질점의 높이(zc)가 일정하게 유지되며 움직이는 역진자로 극단적으로 단순화한 모델이다.10 이 모델에서 CoM의 수평 방향 가속도(x¨)는 CoM의 위치(x)와 ZMP의 위치(px) 사이의 차이에 비례하는 간단한 선형 미분 방정식으로 표현된다.

$\ddot{x} = \frac{g}{z_c} (x - p_x)$
이 식은 ZMP가 시스템의 제어 입력 역할을 하여 CoM의 움직임을 결정함을 보여준다.

2.2.2 DCM의 개념 및 동역학적 분해

Divergent Component of Motion (DCM), 또는 Capture Point (CP)로도 알려진 이 개념은 LIPM의 상태 변수(위치와 속도)를 안정(stable) 모드와 불안정(unstable) 모드로 명확하게 분리하기 위해 도입되었다.14 DCM(ξ)은 CoM의 위치(x)와 속도(x˙)의 특정 선형 결합으로 정의된다.

$\xi = x + \frac{1}{\omega_0} \dot{x} \quad \text{where} \quad \omega_0 = \sqrt{g/z_c}$
이 변환을 통해, 원래의 2차 시스템인 LIPM 동역학은 두 개의 1차 시스템으로 분해된다.

안정적인 CoM 동역학: CoM의 동역학은 $\dot{x} = \omega_0(\xi - x)$ 로 표현된다. 이는 CoM(x)이 DCM(ξ)을 향해 안정적으로 수렴하는, 즉 DCM이 CoM을 끌어당기는 형태의 안정적인 1차 시스템이다.14
불안정한 DCM 동역학: 반면, DCM 자체의 동역학은 $\dot{\xi} = \omega_0(\xi - \nu)$ 로 표현된다. 이는 DCM(ξ)이 Virtual Repellent Point (VRP, $\nu$ )로부터 기하급수적으로 멀어지려는, 즉 발산하려는 특성을 가진 불안정한 1차 시스템이다.14 여기서 VRP는 실질적으로 ZMP와 동일한 역할을 수행하는 제어 입력 지점이다.

2.2.3 VRP를 통한 동적 안정화

이 동역학적 분해는 제어 전략에 중요한 시사점을 제공한다. CoM은 DCM을 향해 자연스럽게 수렴하므로, 제어의 핵심은 불안정한 DCM을 제어하는 것이 된다. 즉, VRP(ZMP)의 위치를 적절히 조절하여, 발산하려는 DCM이 우리가 원하는 궤적을 따라가도록 만들면 전체 시스템의 균형을 동적으로 유지할 수 있다.14

DCM의 물리적 의미는 ’로봇이 현재 상태에서 넘어지지 않고 멈추기 위해 ZMP를 위치시켜야 하는 지점’으로 해석할 수 있다. 만약 현재의 DCM이 지지 다각형 내에 위치한다면, 로봇은 VRP(ZMP)를 현재 DCM 위치와 일치시킴으로써 CoM의 속도를 0으로 수렴시켜 안정적으로 정지할 수 있다. 즉, 로봇은 넘어지는 과정에서 스스로를 ‘붙잡을(capture)’ 수 있게 된다.11 이 개념은 ZMP의 정적인 제약을 넘어, 시스템의 불안정성을 명시적으로 다루고 이를 제어의 대상으로 삼음으로써, 보행 시 CoM이 DCM을 따라 자연스럽게 ‘넘어지듯’ 전진하는 것과 같은 동적인 움직임을 더 직관적이고 효과적으로 계획하고 제어할 수 있는 새로운 길을 열었다.13

3. 전신 운동 생성을 위한 최첨단 플래닝 및 제어 기법

휴머노이드 로봇이 단순한 보행을 넘어 인간과 같이 복잡하고 민첩한 동작을 수행하기 위해서는 로봇의 모든 관절과 링크를 하나의 통합된 시스템으로 간주하는 전신(whole-body) 관점의 접근이 필수적이다. 제1부에서 다룬 균형 제어의 기초 원리들은 이러한 전신 운동을 생성하고 제어하기 위한 더 큰 프레임워크의 일부를 구성한다. 본 부에서는 궤적 최적화(TO), 모델 예측 제어(MPC), 그리고 전신 제어(WBC)라는 세 가지 핵심 기술을 중심으로, 현대 AHMP가 어떻게 로봇의 높은 자유도와 복잡한 동역학을 다루어 민첩한 움직임을 구현하는지 심층적으로 분석한다. 이 기술들은 독립적으로 사용되기보다는, 이상적인 ’전략’을 수립하는 TO, 현실의 변화에 맞춰 ’전술’을 수정하는 MPC, 그리고 이를 물리적으로 실현 가능한 ‘실행’ 명령으로 변환하는 WBC의 계층적 구조로 결합될 때 강력한 시너지를 발휘한다. 이러한 계층적 아키텍처는 휴머노이드가 복잡하고 동적인 임무를 강인하게 수행할 수 있게 하는 현대 AHMP의 핵심 프레임워크를 이룬다.

Table 1: 휴머노이드 균형 제어 패러다임 비교

구분	ZMP 기반 제어	DCM 기반 제어	모델 예측 제어 (MPC)	전신 제어 (WBC)
핵심 개념	지면 반력의 수평 모멘트가 0이 되는 지점(ZMP)을 지지 다각형 내에 유지 7	시스템의 불안정한 동역학 모드(DCM)를 VRP/ZMP를 통해 직접 제어 14	미래 상태 예측을 통해 현재의 최적 제어 입력을 반복적으로 계산 (Receding Horizon) 16	다수의 작업을 우선순위에 따라 동시에 만족시키는 관절 토크/가속도 계산 26
주요 장점	직관적이고 안정성 보장이 명확함. 보행 패턴 생성에 널리 사용됨 4	동적인 움직임(넘어지는 과정)을 직관적으로 모델링하고 제어 가능. ZMP보다 동적 성능 우수 13	외란 및 모델 불확실성에 대한 강인성. 실시간 재계획을 통한 동적 환경 적응 능력 4	높은 자유도를 활용한 다중 작업(균형, 조작, 시선 등) 동시 수행. 물리적 제약의 엄격한 만족 27
주요 단점	보수적인 움직임 생성. 달리기/점프 등 비행 구간에 적용 불가 9	LIPM이라는 단순화된 모델에 의존. 전신 운동학을 직접 고려하지 않음 15	높은 계산 비용. 정확한 동역학 모델 요구 4	작업 간 충돌 발생 가능. 우선순위 설계가 복잡할 수 있음 26
주 적용 분야	정적/준정적 보행 패턴 생성	동적 보행 안정화 및 스텝 위치 조절	실시간 궤적 수정 및 외란 대응	다중 접촉, 조작을 포함한 복합적인 전신 동작 제어
기반 모델	전체 동역학 또는 LIPM	LIPM	단순화 모델(LIPM, Centroidal) 또는 전체 동역학 모델	전체 동역학 및 기구학 모델

3.1 통합적 접근: 전신 모션 플래닝과 중심 질량 동역학

단순히 두 발로 걷는 것을 넘어, 팔을 사용하여 물건을 조작하거나, 몸통을 비틀어 좁은 공간을 통과하는 등 복잡한 임무를 수행하기 위해서는 팔, 다리, 몸통 등 로봇의 모든 자유도(Degree of Freedom, DoF)를 통합적으로 고려하는 전신 운동(Whole-Body Motion) 계획이 필수적이다.1 그러나 휴머노이드 로봇은 수십 개에 달하는 높은 자유도를 가지므로, 모든 관절의 움직임을 동시에 계획하는 것은 엄청난 계산 복잡도를 야기한다.3

이러한 문제를 해결하기 위한 효과적인 접근법으로 중심 질량 동역학(Centroidal Dynamics) 모델이 주목받고 있다. 로봇의 각 링크와 관절의 움직임을 모두 포함하는 전체 동역학(full-body dynamics) 모델은 매우 복잡하고 비선형성이 강하지만, 로봇 전체의 질량 중심(CoM)의 병진 운동과 전체 각운동량(Angular Momentum)의 회전 운동을 기술하는 중심 질량 동역학은 상대적으로 훨씬 간단한 형태로 표현된다.30 이 모델은 로봇의 전반적인 움직임과 균형에 가장 중요한 요소들을 포착하면서도, 개별 링크의 복잡한 상호작용을 추상화하여 계산 효율성을 크게 높인다. 따라서 중심 질량 동역학은 매우 정확하지만 다루기 힘든 전체 동역학 모델과, 지나치게 단순화되어 로봇의 표현력을 제한하는 점질량(point-mass) 모델 사이의 강력하고 실용적인 절충안을 제공한다.31

실제 모션 플래닝에서는 이 모델을 핵심 동역학 제약으로 사용한다. 즉, 중심 질량 동역학을 만족시키면서 동시에 충돌 회피, 목표 지점 도달, 관절 한계 준수와 같은 다양한 기구학적 제약 조건을 만족하는 전신 관절 궤적을 최적화 문제로 풀어내는 것이다.29 이 접근법은 계산 부담을 줄이면서도 동역학적으로 실현 가능하고 복잡한 전신 움직임을 효율적으로 생성할 수 있게 한다.

3.2 최적화 기반 궤적 생성 (Trajectory Optimization, TO)

민첩한 휴머노이드의 움직임은 단순히 가능한 경로를 찾는 것을 넘어, ’최적’의 경로를 찾는 과정이다. 궤적 최적화(Trajectory Optimization, TO)는 이러한 최적의 움직임을 생성하기 위한 강력한 수학적 프레임워크를 제공한다. AHMP는 주어진 시간 동안 특정 목표(예: 에너지 소비 최소화, 이동 시간 최소화, 동작의 부드러움 최대화)를 달성하면서, 로봇의 동역학 및 기구학적 제약 조건을 모두 만족하는 제어 입력(관절 토크)과 상태(관절 위치, 속도)의 궤적을 찾는 비선형 최적화(Nonlinear Programming, NLP) 문제로 정식화될 수 있다.32

3.2.1 강체 동역학 방정식과 제약 조건

이 최적화 문제의 가장 핵심적인 제약 조건은 로봇의 움직임을 지배하는 강체 동역학(Rigid-Body Dynamics) 방정식이다. 이 방정식은 관절의 움직임(위치 $q$ , 속도 $\dot{q}$ , 가속도 $\ddot{q}$ )과 그 움직임을 만들어내는 힘(관절 토크 $u$ , 접촉력 $\lambda$ ) 사이의 복잡한 관계를 나타낸다.36

$H(q)\ddot{q} + C(q, \dot{q}) + G(q) = B(q)u + J(q)^T \lambda$
이 방정식 외에도 다음과 같은 다양한 제약 조건들이 최적화 문제에 포함된다.

운동학적 제약: 관절의 가동 범위(joint limits), 말단 장치(end-effector)가 특정 위치에 도달해야 하는 조건 등.
동역학적 제약: 모터가 낼 수 있는 최대 토크(torque limits).
환경 제약: 장애물과의 충돌 회피(collision avoidance).
접촉 제약: 발이 지면에서 미끄러지지 않아야 한다는 마찰 제약(friction cone constraint)과, 접촉이 있을 때만 접촉력이 발생할 수 있다는 상보성 제약(complementarity constraint, $\forall i, \phi_i(q)\lambda_i = 0$ ).36

Table 2: 강체 동역학 주요 변수 정의

기호	명칭	설명
$q, \dot{q}, \ddot{q}$	일반화 좌표 (Generalized Coordinates)	로봇의 자세를 나타내는 변수 벡터 (관절 각도 등)와 그 시간 미분 (속도, 가속도).
$H(q)$	관성 행렬 (Inertia Matrix)	로봇의 질량 분포를 나타내는 행렬. 가속도를 힘/토크로 변환.
$C(q, \dot{q})$	코리올리/원심력 벡터	회전 운동으로 인해 발생하는 가상의 힘을 나타내는 벡터.
$G(q)$	중력 벡터 (Gravity Vector)	각 관절에 작용하는 중력에 의한 토크 벡터.
$B(q)$	제어 입력 행렬 (Control Input Matrix)	관절 토크를 일반화된 힘으로 변환하는 행렬.
$u$	관절 토크 (Joint Torques)	로봇의 액추에이터가 생성하는 제어 입력 벡터.
$\lambda$	접촉력 (Contact Forces)	발이나 손 등이 환경과 접촉할 때 발생하는 힘 벡터.
$J(q)$	접촉 자코비안 (Contact Jacobian)	관절 속도를 접촉점의 속도로 변환하는 행렬. $J(q)^T$ 는 접촉력을 일반화된 힘으로 변환.
$\phi(q)$	접촉 거리 함수 (Contact Distance Function)	로봇과 환경 사이의 거리를 나타내는 함수. $\phi(q) \geq 0$ 은 비침투(non-penetration) 조건.

수치적 해법

이러한 고차원의 복잡한 비선형 최적화 문제를 해석적으로 푸는 것은 불가능하다. 따라서 수치적인 해법이 사용된다. 대표적인 기법인 직접 연결법(Direct Collocation)이나 다중 슈팅법(Multiple Shooting)은 연속적인 시간의 궤적 문제를 유한한 개수의 이산적인 시점(collocation points)에서의 대수적 제약 문제로 변환한다. 이렇게 변환된 대규모 NLP 문제는 IPOPT나 SNOPT와 같은 수치 최적화 솔버를 사용하여 국소 최적해(locally optimal solution)를 구하게 된다.35 TO는 주로 오프라인에서 계산 비용이 많이 드는 전역적인 참조 궤적을 생성하는 데 사용된다.

2.3 실시간 반응성 확보: 모델 예측 제어 (MPC)

궤적 최적화가 이상적인 환경에서 전역적으로 최적의 ’계획’을 생성한다면, 모델 예측 제어(Model Predictive Control, MPC)는 불확실한 현실 세계에서 ’실시간 대응’을 담당한다. MPC는 로봇이 예측 불가능한 상황에 민첩하게 반응할 수 있도록 하는 핵심 기술이다.

MPC의 원리: 예측과 반복 최적화

MPC의 핵심 아이디어는 ’되먹임 수평선 제어(Receding Horizon Control)’이다.4

예측 (Prediction): 현재 로봇의 상태(위치, 속도 등)를 측정한다. 이 상태를 초기 조건으로 하여, 로봇의 동역학 모델을 사용해 미래의 짧은 시간(예측 구간, prediction horizon) 동안 로봇이 어떻게 움직일지를 예측한다.
최적화 (Optimization): 이 예측 구간 내에서, 주어진 비용 함수(예: 목표 지점과의 오차, 에너지 소모)를 최소화하고 모든 제약 조건(예: ZMP 안정성, 토크 한계)을 만족하는 최적의 제어 입력 시퀀스를 계산한다.
실행 (Execution): 계산된 최적 제어 입력 시퀀스 중 가장 첫 번째 단계의 제어 입력만을 로봇에 실제로 적용한다.
반복 (Repetition): 다음 시간 단계에서 로봇의 새로운 상태를 다시 측정하고, 위 1~3의 과정을 반복한다.

이러한 반복적인 재계획 과정 덕분에 MPC는 환경 변화나 외란에 매우 강인한 특성을 보인다.

전통적 ZMP 기반 방식과의 차이점

MPC는 전통적인 ZMP 기반 패턴 생성 방식과 근본적인 차이를 보인다.

오프라인 계획 vs. 온라인 재계획: 전통적인 ZMP 기반 방식은 대부분 보행 시작 전에 전체 움직임 패턴을 오프라인으로 미리 생성한다.4 이는 정적인 환경에서는 효과적이지만, 예상치 못한 상황에 대처하기 어렵다. 반면, MPC는 매 순간(수십 ms마다) 움직임을 실시간으로 다시 계획(online replanning)하므로 변화에 능동적으로 적응할 수 있다.4
강인성(Robustness): MPC의 온라인 재계획 능력은 외란에 대한 강인성을 극대화한다. 예를 들어, 로봇이 걷는 도중 옆에서 강하게 밀렸다고 가정하자. 전통적인 방식은 미리 정해진 경로로 복귀하려다 균형을 잃기 쉽다. 하지만 MPC는 밀려서 흔들리는 현재 상태를 즉시 반영하여, 넘어지지 않기 위한 최적의 다음 발 위치나 상체 움직임을 즉각적으로 다시 계산하여 실행한다.4

MPC의 한계

MPC는 강력한 성능을 제공하지만, 몇 가지 도전 과제를 안고 있다. 매 시간 단계마다 복잡한 최적화 문제를 풀어야 하므로 계산 비용이 매우 높다는 점이 가장 큰 단점이다.4 이 때문에 실제 로봇에 적용하기 위해서는 동역학 모델을 단순화하거나(예: LIPM, 중심 질량 동역학), 최적화 문제의 해를 근사적으로 빠르게 푸는 기법이 필요하다. 또한, 예측의 정확도가 동역학 모델의 정확도에 크게 의존하기 때문에, 모델과 실제 로봇 간의 오차를 어떻게 처리할 것인지가 중요한 문제로 남는다.4

2.4 다중 작업 조율: 계층적 전신 제어 (WBC)

휴머노이드 로봇은 단순히 걷는 것 외에도 다양한 작업을 동시에 수행해야 한다. 예를 들어, 균형을 잡으면서, 한 손으로는 컵을 들고, 다른 손으로는 문을 열며, 머리로는 목표물을 계속 주시해야 할 수 있다. 전신 제어(Whole-Body Control, WBC)는 이처럼 여러 개의 상충될 수 있는 작업들을 로봇의 높은 자유도를 활용하여 조화롭게 조율하는 제어 프레임워크다.26

QP를 이용한 최적화 기반 제어

WBC에서 각 작업(task)은 목표 값과 실제 값 사이의 오차를 최소화하는 문제로 정의된다. 예를 들어, ’손을 목표 위치로 이동’시키는 작업은 손의 현재 위치와 목표 위치 간의 오차를, ‘균형 유지’ 작업은 CoM의 가속도를 목표 가속도와 일치시키는 오차를 최소화하는 것으로 표현할 수 있다. 이러한 오차 최소화 문제는 보통 $\min ||Ax-b||^2$ 형태의 2차 비용 함수(quadratic cost function)로 표현된다. 동시에 관절 각도/속도/토크 한계, 접촉 제약 등 로봇의 물리적 제약 조건들은 선형 등식 또는 부등식으로 모델링된다. 이 두 가지를 결합하면, 주어진 제약 하에 비용 함수를 최소화하는 해(예: 관절 가속도 또는 토크)를 찾는 2차 계획법(Quadratic Programming, QP) 문제가 된다. QP는 볼록 최적화(convex optimization) 문제이므로 전역 최적해를 빠르고 안정적으로 찾을 수 있어 실시간 제어에 매우 적합하다.27

3.2.2 계층적 제어 (Hierarchical Control)

여러 작업을 동시에 수행할 때, 모든 작업을 완벽하게 만족시키는 것은 불가능할 수 있다. 예를 들어, 손을 무리하게 뻗다가 균형을 잃을 수 있다. 계층적 제어는 이러한 작업 간의 충돌을 해결하기 위해 작업에 우선순위를 부여하는 방식이다.26

최우선 순위 작업: 가장 중요한 작업, 예를 들어 물리적으로 절대 위반해서는 안 되는 제약(관절 한계, 충돌 회피)이나 로봇의 생존과 직결된 작업(균형 유지)이 최우선 순위로 설정된다. QP 솔버는 먼저 이 작업들을 만족하는 해의 집합을 찾는다.
차순위 작업: 그 다음, 최우선 순위 작업을 방해하지 않는 범위 내에서, 즉 남은 자유도(영공간, null-space)를 활용하여 다음 우선순위의 작업(예: 손 위치 제어)을 최대한 만족시키는 해를 찾는다. 이 과정은 수학적으로 영공간 투영(Null-Space Projection)을 통해 구현된다.26
반복: 이 과정은 가장 낮은 우선순위의 작업(예: 특정 자세 유지, 에너지 최소화)까지 계층적으로 반복된다.

이러한 계층적 구조를 통해 WBC는 ‘문을 열려다가 넘어지는’ 것과 같은 위험한 상황을 방지하고, 로봇이 안정성을 최우선으로 확보하면서 다양한 임무를 유연하게 수행할 수 있도록 보장한다.

4. 비정형 환경과의 상호작용

휴머노이드 로봇이 실세계에서 진정한 자율성을 갖추기 위해서는 평평하고 예측 가능한 지면을 넘어, 계단, 돌무더기, 좁은 다리와 같이 복잡하고 비정형적인 환경과 능동적으로 상호작용할 수 있어야 한다. 이는 단순히 안정적으로 걷는 것을 넘어, 어디를, 언제, 어떻게 접촉할지 동적으로 결정하고, 시시각각 변하는 주변 환경을 인식하여 계획에 반영하는 고차원적인 능력을 요구한다. 본 부에서는 이러한 능력을 구현하기 위한 두 가지 핵심 기술, 즉 접촉 순서 계획과 인식 기반 동적 계획에 대해 탐구한다.

4.1 이산-연속 혼합 최적화: 접촉 순서 계획 (Contact Sequence Planning)

4.1.1 접촉 계획의 중요성과 복잡성

민첩한 이동(agile locomotion)의 핵심은 환경과의 접촉을 전략적으로 활용하는 것이다. 평지가 아닌 험준한 지형을 통과하기 위해 로봇은 발뿐만 아니라 손을 사용하여 지지점을 만들거나, 몸을 지탱하는 등 다양한 접촉 전략을 구사해야 한다.3 따라서 ‘어디에(location)’, ‘언제(timing)’, ‘어떤 신체 부위로(end-effector)’ 접촉할 것인지를 결정하는 접촉 순서 계획은 AHMP의 필수적인 구성 요소이다.

이 문제는 본질적으로 매우 어려운 혼합 최적화 문제(mixed-integer optimization problem)이다. 그 이유는 다음과 같은 두 가지 종류의 변수를 동시에 다루어야 하기 때문이다.29

이산적(Discrete) 변수: 특정 지점에 접촉을 ‘할 것인가, 말 것인가’, 여러 접촉 지점 중 ‘어느 것을 선택할 것인가’, ’어떤 순서로 접촉할 것인가’와 같은 조합적(combinatorial) 결정.
연속적(Continuous) 변수: 접촉을 한다면 ‘정확히 어떤 자세와 힘으로 접촉할 것인가’, 접촉 지점 사이를 ’어떤 궤적으로 이동할 것인가’와 같은 연속적인 결정.

이 두 변수가 결합되면서 탐색해야 할 해의 공간이 기하급수적으로 증가하여, 실시간으로 최적의 해를 찾는 것이 극도로 어려워진다.42

4.1.2 최신 접근법과 추상화 수준의 다변화

이러한 복잡성을 해결하기 위해 다양한 접근법이 연구되고 있으며, 그 발전 과정은 접촉 문제를 다루는 ’추상화 수준의 다변화’로 특징지을 수 있다. 초기 접근법은 주로 ‘발걸음 계획(Footstep Planning)’, 즉 발의 2차원 위치와 타이밍이라는 제한된 수준의 추상화에 집중했다.1 이후 손을 사용한 다중 접촉(multi-contact)이 고려되면서 계획의 대상이 ’발’에서 일반적인 ’말단 장치(end-effector)’로 확장되었다.3

최근 연구는 여기서 더 나아가, 단순히 접촉 ’위치’를 넘어 ‘순서(sequence)’, ‘타이밍(timing)’, ’접촉면(patch)’까지 동시에 최적화하는 방향으로 발전하고 있다. 이는 계획 변수의 차원을 높여 비주기적(acyclic) 파쿠르 동작과 같이 훨씬 더 복잡하고 동적인 움직임을 가능하게 한다.42

Contact-Implicit Optimization: 이 접근법은 접촉 순서나 타이밍을 미리 지정하지 않는다. 대신, 최적화 문제의 제약 조건(예: 상보성 제약) 내에서 접촉 여부, 시점, 힘 등이 최적화 과정의 결과물로서 자연스럽게 결정되도록 한다.31 이는 계획의 유연성을 극대화하지만, 비볼록성(non-convexity)이 매우 강해 좋은 해를 찾기 어렵다는 단점이 있다.
탐색 기반 기법: 몬테카를로 트리 탐색(Monte-Carlo Tree Search, MCTS)과 같은 확률적 탐색 기법을 활용하여, 방대한 접촉 시퀀스 공간에서 유망한 후보들을 효율적으로 탐색한다. 탐색된 각 후보 시퀀스에 대해 궤적 최적화(TO)를 수행하여 동역학적 실현 가능성을 검증하고, 가장 좋은 시퀀스를 최종 계획으로 선택한다.42 이 방식은 이산적 탐색과 연속적 최적화를 효과적으로 결합한다.

더 나아가, GeCCo와 같은 연구는 문제를 더 높은 수준으로 추상화한다. 고수준 계획기는 ’어떤 접촉 위치와 지속 시간’이라는 ’접촉 커맨드’만 생성하고, 미리 훈련된 저수준 제어 정책이 이 커맨드를 추종하도록 한다.46 이는 계획 문제를 ’어떻게 움직일까’에서 ’어떤 접촉을 할까’라는 더 추상적인 문제로 변환하여, 단일 제어기가 다양한 작업을 수행할 수 있도록 일반화 가능성을 높인다. 이처럼 접촉 계획은 로봇이 환경과 상호작용하는 방식의 ’어휘(vocabulary)’를 풍부하게 하여, 더 복잡하고 창의적인 해결책을 찾을 수 있는 방향으로 진화하고 있다.

4.2 ‘보는 대로 움직이기’: 인식 기반 동적 계획

로봇이 미지의 환경이나 동적인 환경에서 민첩하게 움직이기 위해서는 실시간으로 주변 상황을 ‘보고’ 이해하며, 이를 즉시 자신의 움직임 계획에 반영하는 능력이 필수적이다. 인식 기반 동적 계획은 센서 데이터를 모션 플래닝 루프에 통합하여 이러한 능력을 구현한다.

4.2.1 센서 통합과 환경 모델링

휴머노이드 로봇은 일반적으로 LiDAR, 3D 깊이 카메라(Depth Camera), IMU(관성 측정 장치) 등 다양한 센서를 탑재한다.47

LiDAR와 깊이 카메라: 이 센서들은 주변 환경과의 거리를 측정하여 3차원 점 구름(point cloud) 데이터를 생성한다. 로봇의 인식 소프트웨어는 이 데이터를 처리하여 벽, 바닥, 장애물과 같은 평면이나 물체를 식별하고, 이를 기반으로 실시간 3차원 환경 지도(map)를 구축한다.5
IMU와 관절 엔코더: 이 센서들은 로봇 자신의 자세, 위치, 속도 등 고유 수용성 정보(proprioceptive information)를 제공하여, 로봇이 환경 지도 내에서 자신의 위치를 정확하게 추정(localization)할 수 있도록 돕는다.

4.2.2 실시간 계획과 적응

이렇게 실시간으로 구축된 환경 모델은 모션 플래너에 직접적인 입력으로 사용된다.

안전 지대 및 장애물 식별: 로봇은 지도 정보로부터 안전하게 발을 디딜 수 있는 평탄한 영역(foothold)이나 피해야 할 장애물의 위치와 크기를 식별한다. 이 정보는 모션 플래너의 제약 조건으로 즉시 반영되어, 충돌을 회피하고 안정적인 발 디딤을 보장하는 경로를 생성하게 한다.2
동적 환경 대응: 만약 환경에 움직이는 장애물(예: 사람, 다른 로봇)이 있다면, 인식 시스템은 이들의 움직임을 추적하고 미래 위치를 예측한다. 이 예측 정보는 MPC와 같은 예측 기반 제어 프레임워크와 자연스럽게 결합된다. MPC는 예측된 장애물의 미래 경로를 회피하는 최적의 궤적을 실시간으로 재계획하여, 로봇이 충돌 없이 동적인 환경에 적응하며 이동할 수 있게 한다.1

결론적으로, 인식 기반 동적 계획은 ’인식(Perception) → 계획(Planning) → 제어(Control)’의 루프를 매우 짧은 주기로 반복 실행함으로써, 로봇이 정적인 내부 모델에 의존하는 대신 실제 세계의 변화에 직접적으로 반응할 수 있도록 만든다. 이는 휴머노이드 로봇이 예측 불가능한 실세계 환경에서 강인하고 지능적인 행동을 수행하기 위한 근간이 되는 기술이다.

5. 민첩성의 통합과 미래 전망

지금까지 AHMP를 구성하는 개별 핵심 기술들을 살펴보았다. 그러나 진정한 민첩성은 이러한 기술들이 어떻게 하나의 시스템으로 통합되어 시너지를 발휘하는지에 달려있다. 본 부에서는 현재 세계에서 가장 역동적인 휴머노이드로 평가받는 Boston Dynamics의 Atlas 로봇을 사례로 들어, 최첨단 기술들이 어떻게 통합되어 파쿠르와 같은 경이로운 동작을 구현하는지 분석한다. 더 나아가, 전통적인 모델 기반 접근법의 한계를 넘어서는 새로운 패러다임으로서, 학습 기반 모션 플래닝의 가능성과 미래 방향성을 조망한다.

5.1 사례 연구: Boston Dynamics Atlas의 제어 아키텍처 분석

Boston Dynamics의 Atlas 로봇이 보여주는 파쿠르와 같은 민첩한 동작은 단일 기술이 아닌, 여러 최첨단 기술이 정교하게 결합된 하이브리드 제어 아키텍처의 산물이다. 이 아키텍처의 성공은 ’최적화의 계층화’라는 핵심 전략에 기인한다. 즉, 단일 최적화 문제로 모든 것을 해결하려 하지 않고, 시간 스케일과 추상화 수준에 따라 문제를 계층적으로 분리하여 각 단계에 가장 효율적인 도구를 사용하는 것이다.

5.1.1 하이브리드 아키텍처: 궤적 최적화와 모델 예측 제어의 결합

Atlas의 제어 시스템은 오프라인에서의 심층적인 최적화와 온라인에서의 실시간 적응을 결합한 구조를 가진다.47

장기/전역 최적화 (오프라인 궤적 최적화): 동작 라이브러리 생성

파쿠르를 구성하는 개별 동작들(높은 상자로 점프하기, 좁은 다리 건너기, 공중제비 등)은 사전에 시뮬레이션 환경에서 궤적 최적화(TO)를 통해 계산된다. 이 과정은 수 분에서 수 시간에 걸쳐 진행되며, 로봇의 동역학적, 기구학적 한계를 최대한 활용하여 물리적으로 가능한 최상의 동작 ‘원형(archetype)’ 또는 ’템플릿(template)’을 찾아낸다.47
이렇게 생성된 수많은 동작 템플릿들은 하나의 ’동작 라이브러리’로 구축된다. 이 오프라인 방식은 계산 비용이 매우 높은 전역 최적화 문제를 미리 해결해 둠으로써, 로봇이 실제 동작하는 동안의 실시간 계산 부담을 크게 줄여주는 역할을 한다.47

중기/전술적 최적화 (온라인 모델 예측 제어): 실시간 적응

실제 환경에서 로봇은 LiDAR와 같은 센서를 통해 주변을 실시간으로 인식하여 점프해야 할 상자의 정확한 위치나 건너야 할 다리의 폭 등 환경 정보를 파악한다.47
그 후, 로봇의 제어 시스템은 주어진 임무(예: ‘저 상자 위로 점프하라’)와 가장 유사한 동작 템플릿을 라이브러리에서 선택한다.
모델 예측 제어(MPC)는 이 선택된 템플릿을 이상적인 참조 궤적으로 삼아, 현재 로봇의 상태와 실제 환경과의 차이를 보상하기 위한 최적의 제어 입력을 실시간으로 계산한다. 예를 들어, 상자의 위치가 템플릿보다 0.5m 옆으로 이동했다면, MPC는 이를 반영하여 발 디딤 위치, 힘, 자세, 동작 타이밍 등을 수백 밀리초의 예측 구간에 대해 실시간으로 미세 조정하고 최적화한다.47 이를 통해 템플릿과 실제 환경 간의 불일치를 극복하고, 발이 미끄러지거나 예기치 않은 외란이 발생하는 등의 돌발 상황에 강인하게 대처한다.

단기/반응적 제어 (저수준 제어기): 실행

MPC가 생성한 단기 목표(예: 다음 순간의 관절 가속도 및 접촉력)는 저수준 제어기로 전달되어, 이를 실현하기 위한 최종적인 모터 토크 명령으로 변환된다. 이 단계는 수 밀리초 단위로 작동하며 즉각적인 안정성을 보장한다.

5.1.2 인식-계획-제어의 긴밀한 통합

Atlas의 경이로운 민첩성은 이처럼 ‘인식(Perception)’, ‘계획(Planning)’, ’제어(Control)’의 세 요소가 긴밀하게 통합된 결과물이다. 인식 시스템이 ’어디로 가야 할지’를 알려주면, 계획 시스템이 라이브러리에서 ’무엇을 할지’에 대한 기본 청사진을 선택하고, MPC 제어기가 ’지금 당장 어떻게 해야 할지’를 현실에 맞춰 실시간으로 최적화하여 결정한다. 특히 MPC의 예측 능력은 한 동작에서 다음 동작으로 넘어갈 때, 다음 동작을 미리 고려하여 현재 동작을 조절함으로써 매우 부드럽고 자연스러운 전환을 가능하게 한다.47

5.2 새로운 지평: 학습 기반 모션 플래닝

모델 기반 접근법이 큰 성공을 거두었음에도 불구하고, 정확한 동역학 모델을 구축하기 어렵거나, 복잡한 접촉 현상을 모델링하기 힘든 상황에서는 한계를 보인다. 학습 기반 모션 플래닝은 이러한 한계를 극복할 새로운 가능성을 제시하며, 최근 AHMP 연구의 가장 활발한 분야 중 하나로 자리 잡고 있다.

5.2.1 강화학습 (Reinforcement Learning, RL)

강화학습은 로봇이 명시적인 동역학 모델 없이, 시뮬레이션 환경 내에서 수많은 시행착오(trial-and-error)를 통해 스스로 최적의 행동 방식을 학습하는 패러다임이다.6 에이전트(로봇)는 특정 행동을 취하고, 그 결과로 환경으로부터 ‘보상(reward)’ 또는 ’벌점(penalty)’을 받는다. RL 알고리즘의 목표는 누적 보상을 최대화하는 행동 전략, 즉 ’정책(policy)’을 학습하는 것이다. 이 방식을 통해 로봇은 인간 설계자가 미처 생각하지 못한 창의적이고 효율적인 동작을 발견할 수 있으며, 특히 모델링하기 어려운 미끄러짐이나 불규칙한 지면과의 상호작용에 대해 매우 강인한 제어 정책을 학습할 수 있다.5

5.2.2 모방학습 (Imitation Learning, IL)

모방학습은 전문가(주로 인간)가 수행한 동작 데이터를 모방하여 로봇의 정책을 학습하는 방식이다.28 인간의 동작 캡처(motion capture) 데이터나 전문가의 원격 조종(teleoperation) 데이터를 사용하여, 로봇이 인간처럼 자연스럽고 표현력이 풍부한 동작을 배우도록 할 수 있다. 이 접근법은 복잡한 보상 함수를 직접 설계해야 하는 강화학습의 어려움을 완화하고, 원하는 동작을 직관적으로 가르칠 수 있다는 장점이 있다.

5.2.3 Sim-to-Real 문제와 하이브리드 접근법

학습 기반 접근법의 가장 큰 난관은 ‘Sim-to-Real Gap’, 즉 시뮬레이션에서 성공적으로 학습된 정책이 실제 로봇에서는 제대로 작동하지 않는 문제이다. 이는 시뮬레이션과 현실 세계 사이의 미세한 물리적 차이(마찰, 관절 유연성, 센서 노이즈 등) 때문에 발생한다. 이 문제를 해결하기 위해, 시뮬레이션 환경의 물리 파라미터를 무작위로 계속 변경하며 정책을 학습시켜 강인성을 높이는 도메인 랜덤화(Domain Randomization)와 같은 기법들이 활발히 연구되고 있다.53

Atlas의 사례는 순수한 종단간(end-to-end) 강화학습의 한계를 시사하며, 미래의 유망한 방향이 하이브리드 접근법에 있음을 보여준다. 즉, 모델 기반 제어(MPC 등)의 정확성과 예측 능력, 그리고 학습 기반 제어의 비선형성 및 데이터 기반 적응력을 결합하는 것이다.28 예를 들어, 고수준의 ‘전략적’ 결정(예: 어떤 파쿠르 동작을 어떤 순서로 수행할지)은 학습 모델이 담당하고, 저수준의 ‘반응적’ 제어(예: 실시간 균형 유지)는 모델 기반 제어기가 담당하는 역할 분담이 가능하다. 또한, 학습을 통해 MPC의 비용 함수나 동역학 모델의 불확실성을 보상하거나, 모델 기반 플래너가 생성한 이상적인 궤적을 학습 기반 제어기가 강인하게 추종하도록 훈련하는 방식도 유망한 연구 방향이다.28

6. 결론: 미해결 과제와 미래 연구 방향

민첩한 휴머노이드 모션 플래닝(AHMP)은 지난 수십 년간 이론적, 기술적으로 괄목할 만한 발전을 이루었으며, Boston Dynamics의 Atlas와 같은 로봇을 통해 그 가능성을 현실로 증명하고 있다. 그러나 휴머노이드 로봇이 연구실을 넘어 인간의 일상 공간과 산업 현장에서 보편적으로 활용되기까지는 여전히 해결해야 할 중요한 과제들이 남아있다.

6.1 현재 기술의 핵심 한계

계산 복잡도: MPC, 궤적 최적화, 특히 이산-연속 변수가 혼합된 접촉 순서 계획은 여전히 막대한 계산량을 요구한다. 이로 인해 예측 구간의 길이나 고려할 수 있는 환경의 복잡성이 제한되며, 이는 로봇의 장기적인 계획 능력과 실시간 반응성 사이의 근본적인 트레이드오프로 작용한다.4
모델 불확실성: 대부분의 모델 기반 제어 기법은 로봇과 환경에 대한 정확한 수학적 모델에 의존한다. 하지만 실제 세계에 존재하는 마찰, 지면의 변형, 로봇 관절의 유연성, 액추에이터의 비선형성 등은 정밀하게 모델링하기 매우 어렵다. 이러한 모델과 현실 간의 괴리는 제어 성능을 저하시키고 안정성을 위협하는 주된 요인이다.4
Sim-to-Real Gap: 학습 기반 접근법의 가장 큰 걸림돌은 시뮬레이션에서 학습된 정책이 실제 로봇에서 성능이 저하되는 Sim-to-Real 문제이다. 시뮬레이터가 현실의 모든 물리적 뉘앙스를 완벽하게 재현할 수 없기 때문에 발생하는 이 문제는, 학습 기반 제어의 신뢰성과 보편적 적용을 가로막는 근본적인 장벽으로 남아있다.28
데이터 부족: 특히 강화학습이나 모방학습과 같은 데이터 기반 방법론은 고품질의 방대한 데이터를 필요로 한다. 그러나 로봇이 복잡한 환경과 상호작용하거나, 넘어지는 것과 같은 실패 상황에 대한 실제 데이터를 수집하는 것은 비용과 시간이 많이 들고 위험하다. 이러한 데이터의 부족은 학습된 정책의 일반화 성능과 강인성을 제한하는 주요 원인이 된다.28

6.2 미래 연구 방향

이러한 한계를 극복하고 AHMP 기술을 한 단계 더 발전시키기 위한 미래 연구는 다음과 같은 방향으로 전개될 것으로 전망된다.

모델 기반과 학습 기반의 심층 통합: 두 접근법의 장점을 상호 보완적으로 결합하는 하이브리드 아키텍처 연구가 더욱 중요해질 것이다. 이는 단순히 두 시스템을 병렬로 사용하는 것을 넘어, 학습을 통해 모델의 불확실성을 실시간으로 추정하여 보상하거나, 강화학습을 통해 모델 기반 최적화 문제의 해를 더 효율적으로 찾도록 돕는 등 유기적인 통합을 의미한다. 이러한 융합은 모델 기반 제어의 예측 능력과 학습 기반 제어의 적응력을 모두 갖춘 차세대 제어기를 탄생시킬 잠재력을 지닌다.28
고수준 추론 능력과의 결합: 현재의 AHMP는 주로 ’어떻게 움직일 것인가’라는 물리적 동작 생성에 초점을 맞추고 있다. 미래에는 ’무엇을, 왜 해야 하는가’를 판단하는 고수준의 인지 및 추론 능력과 모션 플래닝을 통합하는 작업 및 모션 계획(Task and Motion Planning, TAMP) 연구가 심화될 것이다.42 예를 들어, “문을 열기 위해 주변의 의자를 가져와 발판으로 사용한다“와 같은 복잡한 문제를 해결하기 위해서는, 상징적 수준의 작업 계획과 기하학적/동역학적 수준의 모션 계획이 긴밀하게 연동되어야 한다.
파운데이션 모델(Foundation Models)의 활용: 최근 인공지능 분야를 주도하고 있는 대규모 언어 모델(LLM)과 비전-언어 모델(VLM)과 같은 파운데이션 모델의 활용은 휴머노이드 로봇 연구에 새로운 돌파구를 제공할 수 있다.28 이러한 모델들은 인간의 자연어 지시를 이해하고, 복잡한 시각적 장면을 의미론적으로 해석하며, 축적된 방대한 지식을 바탕으로 일반화된 행동 전략을 생성하는 데 사용될 수 있다. 이는 로봇이 명시적으로 프로그래밍되지 않은 새로운 작업을 스스로 해결하는 ’체화된 인공지능(Embodied AI)’을 향한 중요한 발걸음이 될 것이다.
인간-로봇 상호작용 및 협업: 휴머노이드 로봇이 궁극적으로 인간과 같은 공간에서 활동하게 될 것이라는 점에서, 인간의 의도를 예측하고 안전하며 사회적으로 수용 가능한 방식으로 상호작용하는 예측 및 반응형 모션 플래닝 기술의 중요성이 더욱 커질 것이다.28

결론적으로, 민첩한 휴머노이드 모션 플래닝은 동역학적 제어, 최적화 이론, 인공지능이 융합되는 최첨단 연구 분야이다. 현재의 기술적 난제들을 극복하고 미래 연구 방향을 성공적으로 개척해 나간다면, 휴머노이드 로봇은 머지않아 인간의 삶과 산업 현장을 혁신하는 핵심적인 역할을 수행하게 될 것이다.

7. 참고 자료

Motion Planning for Humanoid Robots | Request PDF - ResearchGate, https://www.researchgate.net/publication/267107523_Motion_Planning_for_Humanoid_Robots
Motion Planning for Humanoid Locomotion: Applications to Homelike Environments - DLR, https://elib.dlr.de/212233/2/2025_IEEE_RA_M_copyright.pdf
Motion Planning Techniques for Humanoid Robots - IRIS, https://iris.uniroma1.it/retrieve/e383532c-7def-15e8-e053-a505fe0a3de9/Tesi_dottorato_Ferrari.pdf
Motion Planning and Control with Environmental Uncertainties for …, https://pmc.ncbi.nlm.nih.gov/articles/PMC11645066/
BeamDojo: Learning Agile Humanoid Locomotion on … - Robotics, https://www.roboticsproceedings.org/rss21/p068.pdf
BeamDojo: Learning Agile Humanoid Locomotion on Sparse Footholds - arXiv, https://arxiv.org/html/2502.10363v3
Zero moment point - Wikipedia, https://en.wikipedia.org/wiki/Zero_moment_point
Multi-level control of zero-moment point-based humanoid biped robots: a review | Robotica, https://www.cambridge.org/core/journals/robotica/article/multilevel-control-of-zeromoment-pointbased-humanoid-biped-robots-a-review/93E028820A47A97C242A9027A6CC4388
From Walking to Running: 3D Humanoid Gait Generation via MPC - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC9446890/
Humanoid Walking Robot Control with Natural ZMP References, https://people.sabanciuniv.edu/erbatur/iecon%202006%20kurt%20erbatur.pdf
Humanoid Balance Control Using Centroidal Angular Momentum Based on Hierarchical Quadratic Programming, http://dyros.snu.ac.kr/wp-content/uploads/2022/11/KIM2022CAM.pdf
Biped walking pattern generation by using preview control of zero-moment point, https://www.researchgate.net/publication/4041375_Biped_walking_pattern_generation_by_using_preview_control_of_zero-moment_point
[Literature Review] Angular Divergent Component of Motion: A step …, https://www.themoonlight.io/en/review/angular-divergent-component-of-motion-a-step-towards-planning-spatial-dcm-objectives-for-legged-robots
Dynamic Multi-contact Transitions for Humanoid Robots using …, https://elib.dlr.de/112691/1/ICRA2017paper.pdf
Compliant Locomotion Using Whole-Body Control and Divergent Component of Motion Tracking | RoMeLa, https://www.romela.org/wp-content/uploads/2015/05/2015_compliant_locomotion_using_whole-body_control_and_divergent_component_of_motion_tracking.pdf
Full article: Model predictive control of legged and humanoid robots …, https://www.tandfonline.com/doi/full/10.1080/01691864.2023.2168134
Actuator Strategies for Humanoid Balance | Archimedes Drive | IMSystems, https://imsystems.nl/advanced-actuator-strategies-for-humanoid-robot-balance/
Ch. 5 - Highly-articulated Legged Robots, https://underactuated.mit.edu/humanoids.html
(PDF) Multi-level control of zero-moment point-based humanoid …, https://www.researchgate.net/publication/276394922_Multi-level_control_of_zero-moment_point-based_humanoid_biped_robots_a_review
(PDF) Zero-Moment Point - Thirty Five Years of its Life. - ResearchGate, https://www.researchgate.net/publication/220065796_Zero-Moment_Point_-_Thirty_Five_Years_of_its_Life
April 10, 2004 22:17 WSPC/191-IJHR 00008 ZERO-MOMENT …, https://www.cs.cmu.edu/~cga/legs/vukobratovic.pdf
WHOLE BODY MOTION PLANNING AND CONTROL - Frank Dellaert, https://dellaert.github.io/21S-8803MM/Readings/Whole_body_Motion_Planning.pdf
Sensors | Free Full-Text | Dynamic Walking of a Legged Robot in, https://www.mdpi.com/1424-8220/19/16/3588/review_report
Online Iterative Learning Control of Zero-Moment Point for Biped Walking Stabilization - mediaTUM, https://mediatum.ub.tum.de/doc/1245340/308401973439.pdf
Applying the Divergent Component of Motion Method for Quadrupedal Locomotion to a Robot with Series Elastics Actuators | Request PDF - ResearchGate, https://www.researchgate.net/publication/351148914_Applying_the_Divergent_Component_of_Motion_Method_for_Quadrupedal_Locomotion_to_a_Robot_with_Series_Elastics_Actuators
A Whole-Body Control Framework for Humanoids Operating in Human Environments - Oussama Khatib, https://khatib.stanford.edu/publications/pdfs/Sentis_2006_ICRA.pdf
(PDF) Whole-Body Control of Humanoid Robots - ResearchGate, https://www.researchgate.net/publication/322414048_Whole-Body_Control_of_Humanoid_Robots
Humanoid Locomotion and Manipulation: Current Progress and Challenges in Control, Planning, and Learning *co-corresponding authors - arXiv, https://arxiv.org/html/2501.02116v1
Dynamic Complementarity Conditions and Whole-Body Trajectory Optimization for Humanoid Robot Locomotion - arXiv, https://arxiv.org/pdf/2207.03198
Online Non-linear Centroidal MPC for Humanoid Robot Locomotion with Step Adjustment - arXiv, https://arxiv.org/pdf/2203.04489
Whole-body motion planning with centroidal dynamics and full …, https://dspace.mit.edu/handle/1721.1/101079
10.1. Overview of Motion Planning – Modern Robotics, https://modernrobotics.northwestern.edu/nu-gm-book-resource/10-1-overview-of-motion-planning/
Trajectory optimization for cable-driven soft robot locomotion, https://www.roboticsproceedings.org/rss15/p52.pdf
Rapid and Robust Trajectory Optimization for Humanoids - arXiv, https://arxiv.org/html/2409.00303v1
Whole-body trajectory optimization for humanoid falling - SciSpace, https://scispace.com/pdf/whole-body-trajectory-optimization-for-humanoid-falling-18ybqc4w4e.pdf
Direct Trajectory Optimization of Rigid Body … - Research - MIT, https://groups.csail.mit.edu/robotics-center/public_papers/Posa12.pdf
Optimization-based locomotion planning, estimation, and control design for the atlas humanoid robot - Edinburgh Research Explorer, https://www.research.ed.ac.uk/files/20203783/15_kuindersma_ar.pdf
Humanoid Trajectory Optimization with B-Splines and Analytical Centroidal Momentum Derivatives | Request PDF - ResearchGate, https://www.researchgate.net/publication/375667886_Humanoid_Trajectory_Optimization_with_B-Splines_and_Analytical_Centroidal_Momentum_Derivatives
Flexible Model Predictive Control for Bounded Gait Generation in Humanoid Robots - MDPI, https://www.mdpi.com/2313-7673/10/1/30
Optimization-based Multi-Contact Optimal Whole-body Control, https://icra-2024-humanoid.github.io/topics/control/
(PDF) Whole-Body Control of Humanoid Robots - ResearchGate, https://www.researchgate.net/publication/328206892_Whole-Body_Control_of_Humanoid_Robots
Diffusion-based learning of contact plans for agile locomotion - ResearchGate, https://www.researchgate.net/publication/386411240_Diffusion-based_learning_of_contact_plans_for_agile_locomotion
Diffusion-based learning of contact plans for agile locomotion - arXiv, https://arxiv.org/html/2403.03639v5
[2508.12928] Simultaneous Contact Sequence and Patch Planning for Dynamic Locomotion, https://arxiv.org/abs/2508.12928
Contact-Implicit Optimization of Locomotion Trajectories for a Quadrupedal Microrobot - Robotics, https://www.roboticsproceedings.org/rss14/p41.pdf
[Literature Review] GeCCo - a Generalist Contact-Conditioned Policy for Loco-Manipulation Skills on Legged Robots - Moonlight, https://www.themoonlight.io/review/gecco-a-generalist-contact-conditioned-policy-for-loco-manipulation-skills-on-legged-robots
Flipping the Script with Atlas | Boston Dynamics, https://bostondynamics.com/blog/flipping-the-script-with-atlas/
5.4.1 The Atlas robot - TU Delft OCW, https://ocw.tudelft.nl/course-readings/5-4-1-the-atlas-robot/
Optimization-based Locomotion Planning, Estimation, and Control Design for the Atlas Humanoid Robot - Research, https://groups.csail.mit.edu/robotics-center/public_papers/Kuindersma14.pdf
Starting on the Right Foot with Reinforcement Learning | Boston Dynamics, https://bostondynamics.com/blog/starting-on-the-right-foot-with-reinforcement-learning/
Whats the deal with Atlas? : r/robotics - Reddit, https://www.reddit.com/r/robotics/comments/19awct3/whats_the_deal_with_atlas/
Atlas | Boston Dynamics, https://bostondynamics.com/atlas/
Expressive Whole-Body Control for Humanoid Robots - Robotics, https://www.roboticsproceedings.org/rss20/p107.pdf
BeamDojo: Learning Agile Humanoid Locomotion on Sparse Footholds · Robotics, https://roboticsconference.org/program/papers/68/
jonyzhang2023/awesome-humanoid-learning: Humanoid Robots Resources - GitHub, https://github.com/jonyzhang2023/awesome-humanoid-learning
Learning Multi-Modal Whole-Body Control for Real-World Humanoid Robots - GitHub Pages, https://masked-humanoid.github.io/mhc/resources/Masked_Controller_For_Humanoid_Robots.pdf
Advancements in humanoid robot dynamics and learning-based …, https://www.oaepublish.com/articles/ir.2025.32
Combining Task and Motion Planning: Challenges and Guidelines - Frontiers, https://www.frontiersin.org/journals/robotics-and-ai/articles/10.3389/frobt.2021.637888/full
Why OpenAI is returning to humanoid robotics in 2025 and what it means for AGI - Medium, https://medium.com/@creed_1732/why-openai-is-returning-to-humanoid-robotics-in-2025-and-what-it-means-for-agi-dd3efa89886c
Editorial: Human-robot interaction in industrial settings: new challenges and opportunities - Frontiers, https://www.frontiersin.org/journals/robotics-and-ai/articles/10.3389/frobt.2025.1652426/full